
Support vectors는 서포트 벡터 머신(SVM)에서 결정 경계(분류 초평면)를 결정하는 데 실제로 기여하는 훈련 데이터 포인트들을 말합니다. 핵심 내용은 다음과 같습니다. - 직관적 정의: 결정 경계에 가장 가까이 있는(또는 경계 안에 들어와 있는) 데이터 포인트들로, 이 점들이 초평면의 위치와 기울기를 "지탱(support)"합니다. 다른 멀리 떨어진 점들은 경계에 영향을 주지 않습니다. - 수학적 성질(선형 SVM, 하드 마진): 초평면은 w·x + b = 0으로 주어지고, 마진 경계는 w·x + b = ±1입니다. 하드 마진 상황에서는 support vector는 y_i (w·x_i + b) = 1을 만족하는 점들입니다. 이 점들과의 거리가 마진(=1/||w||)을 결정합니다. - 소프트 마진(슬랙) 상황: 마진 위에 있거나 마진 안에 있거나 잘못 분류된 점들도 support vector가 될 수 있습니다(즉, 모델에 영향을 주는 점들). 이들은 Lagrange 승수(α_i)가 0이 아닌 점들로 식별됩니다. - 듀얼 표현과 예측: 학습된 가중치 벡터는 w = sum_i α_i y_i x_i로 표현되며, α_i > 0인 훈련점(=support vectors)만 합에 기여합니다. 커널 SVM에서는 예측이 f(x) = sign(sum_{i in SV} α_i y_i K(x_i, x) + b) 형태가 되어, 예측 비용이 지원 벡터 수에 비례합니다. - 실무적 의미: - 모델은 희소(sparse): 많은 훈련점이 무시되고 일부 SV만 사용되므로 메모리/계산 측면에서 이점이 있음. - 중요한 포인트들: SV들은 결정 경계를 결정하는 핵심 데이터로, 이상치나 경계 근처의 샘플이 SV가 되면 모델에 큰 영향을 줄 수 있음. - 커널 적용 시에도 동일한 개념이 적용되며, 실제로는 변환된 특징공간에서의 경계에 영향을 주는 점들입니다. 요약하면, support vectors는 SVM에서 최종 분류 초평면을 형성하고 결정하는 데 실제로 기여하는 훈련 샘플들입니다.